from langchain_community.document_loaders import PyPDFLoader


def load_documents(file_path):
    """
    这段代码的功能是加载PDF文件并提取文本内容。具体来说：
1. 使用PyPDFLoader加载指定路径的PDF文件
2. 遍历PDF的每一页，提取页面内容
3. 将每页的页码和内容存储为字典格式
4. 返回包含所有页面文本的列表
这是一个典型的PDF文档解析函数，用于将PDF文件转换为可处理的文本数据。
    """
    # 使用PyPDFLoader加载PDF文件
    Loader = PyPDFLoader(file_path)
    pages = Loader.load()
    file_text = []
    # 遍历每一页并提取内容
    for index,page in enumerate(pages):
        page_text = {
            "page_number":index+1,
            "page_content":page.page_content
        }
        file_text.append(page_text)
    #print(file_text)
    return file_text


if __name__ == '__main__':
    file_text =  load_documents("平安保险用户手册.pdf")
    print(file_text)




